所有样本都有类别标记
| 原始数据 | 样本 | 属性特征 | 类别标记 |
|---|---|---|---|
| $o_1$ | $(\xv_1, y_1)$ | $\xv_1[1:d]$ | $y_1$ |
| $o_2$ | $(\xv_2, y_2)$ | $\xv_2[1:d]$ | $y_2$ |
| $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ |
| $o_m$ | $(\xv_m, y_m)$ | $\xv_m[1:d]$ | $y_m$ |
任务类型:
线性回归:用最小二乘求解超定方程组 (方程个数比未知数多)
只有部分样本有类别标记,如何利用其它未标记样本?
| 原始数据 | 样本 | 属性特征 | 类别标记 |
|---|---|---|---|
| $o_1$ | $(\xv_1, y_1)$ | $\xv_1[1:d]$ | $y_1$ |
| $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ |
| $o_l$ | $(\xv_l, y_l)$ | $\xv_m[1:d]$ | $y_l$ |
| $o_{l+1}$ | $(\xv_{l+1}, \NULL)$ | $\xv_{l+1}[1:d]$ | $\NULL$ |
| $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ |
| $o_{l+u}$ | $(\xv_{l+u}, \NULL)$ | $\xv_{l+u}[1:d]$ | $\NULL$ |
任务类型:
所有样本都没有类别标记
| 原始数据 | 样本 | 属性特征 | 类别标记 |
|---|---|---|---|
| $o_1$ | $(\xv_1, \NULL)$ | $\xv_1[1:d]$ | $\NULL$ |
| $o_2$ | $(\xv_2, \NULL)$ | $\xv_2[1:d]$ | $\NULL$ |
| $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ |
| $o_m$ | $(\xv_m, \NULL)$ | $\xv_m[1:d]$ | $\NULL$ |
任务类型:
常用概念及其符号:
如何评估假设$h$的好坏?$h$在整个分布$\Dcal$上的表现
目标:最小化期望风险,也称为泛化风险
$$ \begin{align*} \min_{h \in \Hcal} ~ \color{red}{R(h)} = \Ebb_{(\xv, y) \sim \Dcal}[1_{h(\xv) \neq y}] \end{align*} $$
难点:$\Dcal$未知,泛化风险无法计算,可以计算$h$在$\Scal$上的经验风险
以训练数据上的经验风险替代泛化风险
$$ \begin{align*} \class{red}{R(h)} = \Ebb_{(\xv, y) \sim \Dcal}[1_{h(\xv) \neq y}] ~ \longleftarrow ~ \class{blue}{R_\Scal (h)} = \frac{1}{m} \sum_{i \in [m]} 1_{h(\xv_i) \neq y_i} \end{align*} $$
根据大数定律,当样本数趋向于无穷时,经验风险趋向于泛化风险
如果对假设空间不做任何限制,可能会得到
$$ \begin{align*} h(\xv) = - \prod_{i \in [m]: y_i = 1} \| \xv -\xv_i \|^2 \end{align*} $$
问题:
启示:在经验风险和假设空间复杂度之间取得平衡
问题:假设空间复杂度怎么算?有什么量能够刻画它?
基本思想:假设空间复杂度应体现出对数据集的拟合能力
假设空间$\Hcal = \{ h: \Xcal \mapsto \{1,-1\} \}$,数据集$S = \{\xv_1, \ldots, \xv_m\}$,定义
$$ \begin{align*} H_\Scal = \{ (h(\xv_1), \ldots, h(\xv_m)) \mid h \in \Hcal \} \end{align*} $$
其中$H_\Scal$中每个元素都是对$S$赋予类别标记的可能结果,若$H_\Scal$包含了全部可能的结果,即$|H_\Scal| = 2^m$,则称假设空间$\Hcal$可以打散数据集$\Scal$
假设空间$\Hcal$的 VC 维是能被$\Hcal$打散的最大集合的大小,即
$$ \begin{align*} \VC(\Hcal) = \max \{ m \mid \exists S:~|H_\Scal| = 2^m \} \end{align*} $$
基本思想:假设空间复杂度应体现出对数据集的拟合能力
二维平面上的线性划分:$\Xcal = \Rbb^2$,$\Hcal$为二维平面上直线集合
根据集中度不等式有如下泛化界
$$ \begin{align*} \class{red}{\underbrace{R(h)}_{泛化风险}} \leq \class{blue}{\underbrace{R_\Scal(h)}_{经验风险}} + \class{yellow}{\underbrace{\tilde{O} \left(\sqrt{\VC维/样本数~~~~~~~~~~}~ \right)}_{置信区间}} \end{align*} $$
问题:
启示:VC 维分布无关、数据独立,导出的泛化界有点“松”
方案:引入数据相关的量加强泛化界,在无穷维空间也可以学习
设$\Hcal = \{ h: \Xcal \mapsto \Rbb \}$是定义在特征空间$\Xcal$上的实值函数集合,对于$\forall h \in \Hcal$,其关于样本$(\xv_i, y_i)$的间隔定义为$\gamma_i = y_i f(\xv_i)$
若对数据集$\Scal$的任一类别标记赋值,均存在假设$h \in \Hcal$和$\gamma > 0$使得$y_i h(\xv_i) \ge \gamma$,则称$\Scal$被$\Hcal$以$\gamma$打散,$\Hcal$的宽打散维$\mathrm{fat}_\Fcal(\gamma)$是能被$\Hcal$以$\gamma$打散的最大集合的大小
特别的,取$\Hcal = \{ \xv \mapsto \wv^\top \xv \mid \|\wv\| = 1 \}$,则能将$\Scal$以$\gamma$打散的超平面称为$\gamma$-间隔超平面,即对$\forall i \in [m]$有$y_i \wv^\top \xv_i \ge \gamma$
若数据集包含于一个半径为$R$的球,则$\gamma$-间隔超平面构成的假设空间$\Hcal = \{ \xv \mapsto \wv^\top \xv \mid \|\wv\| = 1 \}$的宽打散维$\mathrm{fat}_\Hcal(\gamma) \leq R^2 / \gamma^2$
| 物理量 | 对假设空间的限制 | 泛化界的大小 |
|---|---|---|
| VC 维 | 弱 | 无穷 |
| 宽打散维 | 强 | 有限 |
间隔$\gamma$越大,宽打散维越小,泛化界越紧
最大间隔准则:最小化经验风险 $\wedge$ 最大化间隔
$$ \begin{align*} \max_{\wv} \quad - \lambda \cdot \class{blue}{0} + \class{green}{\gamma} \qquad & \st \quad y_i \wv^\top \xv_i / \|\wv\| \geq \gamma,~ \forall i \in [m] \\ & \Updownarrow \notag \\ \max_{\wv} \quad \hat{\gamma} / \|\wv\| \qquad & \st \quad y_i \wv^\top \xv_i \geq \hat{\gamma},~ \forall i \in [m] \\ & \Updownarrow \notag \\ \max_{\wv} \quad 1 / \|\wv\| \qquad & \st \quad y_i \wv^\top \xv_i \geq 1,~ \forall i \in [m] \\ & \Updownarrow \notag \\ \min_{\wv} \quad \|\wv\| \qquad & \st \quad y_i \wv^\top \xv_i \geq 1,~ \forall i \in [m] \end{align*} $$
即等价于在$1$-间隔超平面构成的假设空间中寻找最小范数假设
$$ \begin{align*} \min_\wv ~ \lambda \cdot \underbrace{\Omega(\wv)}_{正则化项} + \underbrace{R_\Scal (\wv)}_{经验风险} \end{align*} $$
假设不成立?特征空间不存在$\gamma$-间隔超平面
问题:输入空间若不存在$\gamma$-间隔超平面?
方案:将数据映射到新的特征空间使其尽量线性可分
$$ \begin{align*} f(\xv; \wv, b) = \wv^\top \xv + b ~ \longrightarrow ~ f(\xv; \wv, b) = \wv^\top [\phi_1(\xv); \ldots; \phi_K(\xv)] + b \end{align*} $$
问题:
方案:允许约束$y_i \wv^{\top} \xv_i \geq 1$对少数样本不成立
基本思想:允许约束$y_i \wv^{\top} \xv_i \geq 1$对少数样本不成立
$$ \begin{align*} \min_{\wv} ~ \lambda \cdot \underbrace{\Omega(\wv)}_{正则化项} + \frac{1}{m} \underbrace{\sum_{i \in [m]} 1_{y_i \wv^\top \xv_i < 1} }_{破坏约束的样本数} \end{align*} $$
难点:指示函数$1_{\cdots}$非凸非连续,导致问题很难求解
方案:用另一个函数$l(y, f(\xv))$替代,称为替代损失,一般需满足
$$ \begin{align*} & \class{red}{R (h)} = \Ebb_{(\xv, y) \sim \Dcal} [ 1_{y \cdot h(\xv) < 0} ] \leq \Ebb_{(\xv, y) \sim \Dcal} [ l(y, h(\xv)) ] \\ & ~~ \leq \class{blue}{\frac{1}{m} \sum_{i \in [m]} l(y_i, f(\xv_i))} + [ ~ \class{yellow}{\text{VC}} \mid \class{yellow}{\text{Rademacher}} \mid \class{yellow}{\text{covering number}} \mid \ldots ~ ] \end{align*} $$
基本思想:允许约束$y_i \wv^{\top} \xv_i \geq 1$对少数样本不成立
$$ \begin{align*} \min_{\wv} ~ \lambda \cdot \underbrace{\Omega(\wv)}_{正则化项} + \frac{1}{m} \underbrace{\sum_{i \in [m]} l(y_i, f(\xv_i))}_{替代损失} \end{align*} $$
凸连续函数,指示函数$1_{y \cdot h(\xv) < 0}$的上界
常见替代损失
即采用优化算法求出如下优化问题的最优解
$$ \begin{align*} \min_\wv ~ F(\wv) \triangleq \lambda \cdot \Omega(\wv) + \frac{1}{m} \sum_{i \in [m]} l(y_i, f(\xv_i)) \end{align*} $$
梯度下降 (GD):$\wv_{t+1} \leftarrow \wv_t - \eta_t \nabla F(\wv_t)$,其中$\eta_t$称为步长或学习率
问题:当样本数$m$很大时,梯度$\nabla F(\wv_t)$计算开销很大
方案:小批量梯度下降,随机采样一个下标子集$\Bcal_t \subseteq [m]$
$$ \begin{align*} \wv_{t+1} \leftarrow \wv_t - \eta_t \left( \frac{1}{|\Bcal_t|} \sum_{i \in \Bcal_t} \nabla l(y_i, f(\xv_i)) + \lambda \cdot \nabla \Omega(\wv) \right) \end{align*} $$
若$|\Bcal_t| = 1$,则为常说的随机梯度下降 (SGD)
更新公式:
$$ \begin{align*} & \wv_{t+1} \leftarrow \wv_t - \eta_t \left( \frac{1}{m} \sum_{i \in [m]} \nabla l(y_i, f(\xv_i)) + \lambda \cdot \nabla \Omega(\wv) \right) \\ & \wv_{t+1} \leftarrow \wv_t - \eta_t \left( \frac{1}{|\Bcal_t|} \sum_{i \in \Bcal_t} \nabla l(y_i, f(\xv_i)) + \lambda \cdot \nabla \Omega(\wv) \right) \end{align*} $$
当目标函数的变量尺度不同时,梯度下降效率很低
动量法 (momentum):$\wv_{t+1} = \wv_t - \eta_t \nabla F(\wv_t) + \gamma (\wv_t - \wv_{t-1})$
$$ \begin{align*} \wv_{t+1} - \wv_t & = - \eta_t \nabla F(\wv_t) + \gamma (\wv_t - \wv_{t-1}) \\ \gamma (\wv_t - \wv_{t-1}) & = - \eta_{t-1} \gamma \nabla F(\wv_{t-1}) + \gamma^2 (\wv_{t-1} - \wv_{t-2}) \\ & \vdots \\ \gamma^{t-1} (\wv_t - \wv_{t-1}) & = - \eta_1 \gamma^{t-1} \nabla F(\wv_1) + \mathtip{\gamma^t (\wv_1 - \wv_0)}{因为\wv_1 = \wv_0,故该项等于零} \\ \Longrightarrow ~ \wv_{t+1} - \wv_t & = - \sum_{i \in [t]} \eta_i \gamma^{t-i} \nabla F(\wv_i) \end{align*} $$
动量法每步更新是历史梯度的加权平均
Nesterov 加速梯度 (NAG):改进动量法的第二步
$$ \begin{align*} \begin{cases} \widetilde{\wv} = \wv_t + \gamma (\wv_t - \wv_{t-1}) \\ \wv_{t+1} = \widetilde{\wv} - \eta_t \class{yellow}{\nabla F (\wv_t)} \end{cases} ~ \longrightarrow ~ \begin{cases} \widetilde{\wv} = \wv_t + \gamma (\wv_t - \wv_{t-1}) \\ \wv_{t+1} = \widetilde{\wv} - \eta_t \class{yellow}{\nabla F (\widetilde{\wv})} \end{cases} \end{align*} $$
第$t$轮迭代示意图:
正则化项 + 损失函数:
$$ \begin{align*} \min_\wv ~ \lambda \cdot \Omega(\wv) + \frac{1}{m} \sum_{i \in [m]} l(y_i, f(\xv_i)) \end{align*} $$
$$ \begin{align*} \min_{\wv,b} ~ \frac{1}{2} \sum_{i \in [m]} (\wv^\top \xv_i + b - y_i)^2 = \frac{1}{2} \| \Xv^\top \uv - \yv \|_2^2 \end{align*} $$
其中$\yv = [y_1; \cdots; y_m]$,$\uv \triangleq [\wv; b]$,$\Xv = \begin{bmatrix} \xv_1 & \xv_2 & \cdots & \xv_m \\ 1 & 1 & \cdots & 1 \end{bmatrix}$
$$ \begin{align*} \min_{\uv} ~ F(\uv) \triangleq \frac{1}{2} \| \Xv^\top \uv - \yv \|_2^2 = \frac{1}{2} \uv^\top \Xv \Xv^\top \uv - \uv^\top \Xv \yv + \frac{1}{2} \yv^\top \yv \end{align*} $$
易知$\nabla F(\uv) = \Xv \Xv^\top \uv - \Xv \yv$
当$\Xv \Xv^\top$近似不可逆时,其最小特征值接近零,模型会变得不稳定:
$$ \begin{align*} \uv^\star = (\Xv \Xv^\top)^{-1} \Xv \yv \longrightarrow \uv^\star = (\Xv \Xv^\top + \lambda \Iv)^{-1} \Xv \yv \end{align*} $$
修正后的解对应带$\ell_2$正则的线性回归,亦称为岭 (ridge) 回归:
$$ \begin{align*} \min_{\uv} ~ \frac{\lambda}{2} \|\uv\|_2^2 + \frac{1}{2} \| \Xv^\top \uv - \yv \|_2^2 \end{align*} $$
正则化项 + 损失函数:
$$ \begin{align*} \min_\wv ~ \lambda \cdot \Omega(\wv) + \frac{1}{m} \sum_{i \in [m]} l(y_i, f(\xv_i)) \end{align*} $$
$$ \begin{align*} \min_\wv ~ \lambda \| \wv \|_1 + \frac{1}{2} \| \Xv^\top \wv - \yv \|_2^2 \end{align*} $$
正则化项 + 损失函数:
$$ \begin{align*} \min_\wv ~ \lambda \cdot \Omega(\wv) + \frac{1}{m} \sum_{i \in [m]} l(y_i, f(\xv_i)) \end{align*} $$
$$ \begin{align*} \min_\wv ~ F(\wv) \triangleq \frac{1}{m} \sum_{i \in [m]} \max \{ 0, - y_i \wv^\top \xv_i \} \end{align*} $$
目标函数$F(\wv)$关于$(\xv_i, y_i)$的随机次梯度为$\frac{\partial F(\wv)}{\partial \wv} = - y_i \xv_i 1_{y_i \wv^\top \xv_i < 0}$
算法即为采用随机次梯度下降进行求解的过程
输入:训练集$\{ (\xv_1, y_1), \ldots, (\xv_m, y_m) \}$,迭代次数$T$,$\wv_0 \leftarrow \zerov$,$k \leftarrow 0$
输出:$\wv_k$
在线性可分的数据上,感知机必然可以收敛:
给定训练集$\Scal = \{ (\xv_i, y_i) \}_{i \in [m]}$,如果$\Scal$线性可分,即存在$\gamma > 0$和$\wv$使得对$\forall i \in [m]$有$y_i \wv^\top \xv_i \geq \gamma$,设$r = \max_i \| \xv_i \|$,则感知机的权重更新次数不超过$r^2 / \gamma^2$
不足之处:
正则化项 + 损失函数:
$$ \begin{align*} \min_\wv ~ \lambda \cdot \Omega(\wv) + \frac{1}{m} \sum_{i \in [m]} l(y_i, f(\xv_i)) \end{align*} $$
$$ \begin{align*} \min_{\wv,b} & ~ \frac{1}{2} \| \wv \|_2^2 + \frac{\lambda}{m} \sum_{i \in [m]} \max \{ 0, 1 - y_i (\wv^\top \xv_i + b) \} \\ & \class{blue}{\bigg \Downarrow ~ \max \{ 0, 1 - y_i (\wv^\top \xv_i + b) \} = \epsilon_i} \\ \min_{\wv,b} & ~ \frac{1}{2} \| \wv \|_2^2 + \frac{\lambda}{m} \sum_{i \in [m]} \epsilon_i, \quad \st ~ y_i (\wv^\top \xv_i + b) \geq 1 - \epsilon_i, ~ \epsilon_i \geq 0 \end{align*} $$
当$n \gg m$时,求解支持向量机对偶问题更为方便
$$ \begin{align*} \min_{\alphav} ~ \frac{1}{2} \alphav^\top \Yv \Xv \Xv^\top \Yv \alphav - \ev^\top \alphav \quad \st ~ \zerov \leq \alphav \leq \frac{\lambda}{m} \ev, ~ \yv^\top \alphav = 0 \end{align*} $$
支持向量机的解法比较多
支持向量机 vs. 感知机
正则化项 + 损失函数:
$$ \begin{align*} \min_\wv ~ \lambda \cdot \Omega(\wv) + \frac{1}{m} \sum_{i \in [m]} l(y_i, f(\xv_i)) \end{align*} $$
$$ \begin{align*} \min_{\wv,b} ~ \frac{1}{2} \| \wv \|_2^2 + \frac{\lambda}{m} \sum_{i \in [m]} \max \{ 0, |\wv^\top \xv_i + b - y_i| - \epsilon \} \end{align*} $$
正则化项 + 损失函数:
$$ \begin{align*} \min_\wv ~ \lambda \cdot \Omega(\wv) + \frac{1}{m} \sum_{i \in [m]} l(y_i, f(\xv_i)) \end{align*} $$
$$ \begin{align*} \min_{\wv,b} ~ \frac{1}{2} \| \wv \|_2^2 + \frac{\lambda}{m} \sum_{i \in [m]} \log (1 + \exp (- y_i (\wv^\top \xv_i + b))) \end{align*} $$
初衷:
引入从预测值到概率的映射$\sigma: \Rbb \mapsto [0,1]$
$$ \begin{align*} \sigma(z) = \frac{1}{1 + \exp (-z)} = \begin{cases} 1 & z \rightarrow \infty \\ 0 & z \rightarrow -\infty \end{cases}, ~ 1 - \sigma(z) = \frac{1}{1 + \exp (z)} = \sigma(-z) \end{align*} $$
问题:给定分布$\qv$,如何度量分布$\pv$与它之间的差异?
交叉熵$H_{\qv} (\pv) = - \sum_i q_i \log p_i = \sum_i q_i \log (1/p_i)$,当$\pv = \qv$时交叉熵最小
$$ \begin{align*} \min_{\pv} ~ H_{\qv} (\pv) = - \sum_i q_i \log p_i = \sum_i q_i \log (1/p_i), \quad \st ~ \sum_i p_i = 1 \end{align*} $$
拉格朗日函数为$L = - \sum_i q_i \log p_i + \alpha (\sum_i p_i - 1)$,于是
$$ \begin{align*} \frac{\partial L}{\partial p_i} = - \frac{q_i}{p_i} + \alpha = 0 ~ \Longrightarrow ~ p_i = \frac{q_i}{\alpha} ~ \Longrightarrow ~ \alpha = 1 ~ \Longrightarrow ~ p_i = q_i \end{align*} $$
对数几率回归:$\qv = [\frac{1+y}{2}; \frac{1-y}{2}]$,$\pv = [\sigma(\wv^\top \xv + b); \sigma(-\wv^\top \xv-b)]$
$$ \begin{align*} H_{\qv} (\pv) & = \frac{1+y}{2} \log (1 + \exp (-\wv^\top \xv - b)) + \frac{1-y}{2} \log (1 + \exp (\wv^\top \xv + b)) \\ & = \begin{cases} \log (1 + \exp (-\wv^\top \xv - b)) & y = 1 \\ \log (1 + \exp (\wv^\top \xv + b)) & y = -1 \end{cases} \\ & = \log (1 + \exp (- y (\wv^\top \xv + b))) \end{align*} $$
$$ \begin{align*} H_{\qv} (\pv) = \log (1 + \exp (- y (\wv^\top \xv + b))) \end{align*} $$
交叉熵损失应用到二分类问题上就退化成了对数几率损失
记$p_+ = p(y=1|\xv)$,$p_- = p(y=-1|\xv) = 1 - p_+$,则
$$ \begin{align*} p_+ = \frac{1}{1 + \exp (-(\wv^\top \xv + b))} ~ \Longrightarrow ~ \wv^\top \xv + b = \ln \frac{p_+}{1-p_+} = \ln \frac{p_+}{p_-} \end{align*} $$
设共有$C$个类,预测函数$f(\xv) = \argmax_{c \in [C]} (\wv_c^\top \xv + b_c)$
引入$\Rbb^C \mapsto \Delta^C$的 Softmax 映射:
$$ \begin{align*} p(y = c | \xv) & = \frac{\exp (\wv_c^\top \xv + b_c)}{\sum_{c' \in [C]} \exp (\wv_{c'}^\top \xv + b_{c'})} \\ & = \frac{\exp ((\wv_c - \wv_C)^\top \xv + b_c - b_C)}{\sum_{c' \in [C-1]} \exp ((\wv_{c'} - \wv_C)^\top \xv + b_{c'} - b_C) + 1} \end{align*} $$
令$\wv_c \leftarrow \wv_c - \wv_C$,$b_c \leftarrow b_c - b_C$,记$p_c = p(y = c | \xv)$,于是
$$ \begin{align*} p_c = \frac{\exp (\wv_c^\top \xv + b_c)}{\sum_{c' \in [C-1]} \exp (\wv_{c'}^\top \xv + b_{c'}) + 1}, \quad p_C = 1 - \sum_{c' \in [C-1]} p_c \end{align*} $$
$$ \begin{align*} p_c = \frac{\exp (\wv_c^\top \xv + b_c)}{\sum_{c' \in [C-1]} \exp (\wv_{c'}^\top \xv + b_{c'}) + 1}, \quad p_C = 1 - \sum_{c' \in [C-1]} p_c \end{align*} $$
对于样本$(\xv_i, y_i)$,$\qv_i = [1_{y_i=1}, 1_{y_i=2}, \ldots, 1_{y_i=C}]$为$y_i$的独热编码
$$ \begin{align*} \pv_i & = [p_1, \ldots, p_{C-1}, p_C] = \frac{[ \exp (\wv_1^\top \xv_i + b_1), \ldots, \exp (\wv_{C-1}^\top \xv_i + b_{C-1}), 1 ]}{\sum_{c' \in [C-1]} \exp (\wv_{c'}^\top \xv_i + b_{c'}) + 1} \end{align*} $$
采用交叉熵$H_{\qv_i} (\pv_i)$作为替代损失可得多分类对数几率回归
$$ \begin{align*} \min_{\wv_c, b_c} & ~ \frac{1}{2} \sum_{c \in [C-1]} \| \wv_c \|_2^2 + \frac{\lambda}{m} \sum_{i \in [m]} \sum_{c \in [C]} [\qv_i]_c \log \frac{1}{[\pv_i]_c} \end{align*} $$
当$C = 2$时
$$ \begin{align*} H_{\qv} (\pv) & = - 1_{y=1} \log \frac{\exp (\wv_1^\top \xv + b_1)}{ \exp (\wv_1^\top \xv + b_1) + 1} - 1_{y=2} \log \frac{1}{ \exp (\wv_1^\top \xv + b_1) + 1} \\ & = 1_{y=1} \log (1 + \exp (- \wv_1^\top \xv - b_1)) + 1_{y=2} \log (1 + \exp (\wv_1^\top \xv + b_1)) \end{align*} $$
将第$2$类类别标记记为$-1$,则$H_{\qv} (\pv) = \log (1 + \exp (- y (\wv_1^\top \xv + b_1)))$
神经网络视角:
| 对数几率回归 | 层数 | 激活函数 | 输出层节点数 | 类别标记 |
|---|---|---|---|---|
| 二分类 | 1 层 | Sigmoid | $1$ | $y \in \{ 1, -1 \}$ |
| 多分类 | 1 层 | Softmax | $C$ | $y \in [C]$ |
正则化项 + 损失函数:
$$ \begin{align*} \min_\wv ~ \lambda \cdot \Omega(\wv) + \frac{1}{m} \sum_{i \in [m]} l(y_i, f(\xv_i)) \end{align*} $$
| 模型 | 正则化项 | 损失函数 | 预测函数 |
|---|---|---|---|
| 线性回归 | - | $(\wv^\top \xv + b - y)^2$ | $\wv^\top \xv + b$ |
| 岭回归 | $\|\wv\|_2^2$ | $(\wv^\top \xv + b - y)^2$ | $\wv^\top \xv + b$ |
| LASSO | $\|\wv\|_1$ | $(\wv^\top \xv - y)^2$ | $\wv^\top \xv$ |
| 感知机 | - | $\max \{ 0, - y \wv^\top \xv \}$ | $\sgn(\wv^\top \xv)$ |
| 支持向量机 | $\|\wv\|_2^2$ | $\max \{ 0, 1 - y (\wv^\top \xv + b) \}$ | $\sgn(\wv^\top \xv + b)$ |
| 支持向量回归 | $\|\wv\|_2^2$ | $\max \{ 0, \wv^\top \xv + b - y - \epsilon \}$ | $\wv^\top \xv + b$ |
| 对数几率回归 | $\|\wv\|_2^2$ | $\log (1 + \exp (- y (\wv^\top \xv + b)))$ | $\sigma(\wv^\top \xv + b)$ |